检索结果

Select

1. 基于多源信息相似度的微博用户推荐算法

姚彬修, 倪建成, 于苹苹, 李淋淋, 曹博

计算机应用 2017, 37 (5): 1382-1386. DOI: 10.11772/j.issn.1001-9081.2017.05.1382

摘要（503）

PDF （872KB）（479）

针对传统的协同过滤（CF）推荐算法中存在的数据稀疏性和推荐准确率不高的问题，提出了基于多源信息相似度的微博用户推荐算法（MISUR）。首先，根据微博用户的标签信息运用 K最近邻（ KNN）算法对用户进行分类；然后，对得到的每个类中的用户分别计算其多源信息（微博内容、交互关系和社交信息）的相似度；其次，引入时间权重和丰富度权重计算多源信息的总相似度，并根据其大小进行TOP- N用户推荐；最后，在并行计算框架Spark上进行实验。实验结果表明，MISUR算法与CF算法和基于多社交行为的微博好友推荐算法（MBFR）相比，在准确率、召回率和效率方面都有较大幅度的提升，说明了MISUR算法的有效性。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于聚类和Spark框架的加权Slope One算法

李淋淋, 倪建成, 于苹苹, 姚彬修, 曹博

计算机应用 2017, 37 (5): 1287-1291. DOI: 10.11772/j.issn.1001-9081.2017.05.1287

摘要（743）

PDF （928KB）（474）

针对传统Slope One算法在相似性计算时未考虑项目属性信息和时间因素对项目相似性计算的影响，以及推荐在当前大数据背景下面临的计算复杂度高、处理速度慢的问题，提出了一种基于聚类和Spark框架的加权Slope One算法。首先，将时间权重加入到传统的项目评分相似性计算中，并引入项目属性相似性生成项目综合相似度；然后，结合Canopy- K-means聚类算法生成最近邻居集；最后，利用Spark计算框架对数据进行分区迭代计算，实现该算法的并行化。实验结果表明，基于Spark框架的改进算法与传统Slope One算法、基于用户相似性的加权Slope One算法相比，评分预测准确性更高，较Hadoop平台下的运行效率平均可提高3.5~5倍，更适合应用于大规模数据集的推荐。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于Spark框架的高效 KNN中文文本分类算法

于苹苹, 倪建成, 姚彬修, 李淋淋, 曹博

计算机应用 2016, 36 (12): 3292-3297. DOI: 10.11772/j.issn.1001-9081.2016.12.3292

摘要（756）

PDF （936KB）（486）

针对 K-最近邻（ KNN）分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题，提出了一种基于Spark框架与聚类优化的高效 KNN分类算法。该算法首先利用引入收缩因子的优化 K-medoids聚类算法对训练集进行两次裁剪；然后在分类过程中迭代 K值获得分类结果，并在计算过程中结合Spark计算框架对数据进行分区迭代实现并行化。实验结果表明，在不同数据集中传统 K-最近邻算法、基于 K-medoids的 K-最近邻算法所耗费时间是所提Spark框架下的 K-最近邻算法的3.92~31.90倍，所提算法具有较高的计算效率，相较于Hadoop平台有较好的加速比，可有效地对大数据进行分类处理。

参考文献 | 相关文章 | 多维度评价

Select

4. 一种基于聚类和Spark框架的加权Slope One算法

李淋淋倪建成于苹苹姚彬修曹博

录用日期: 2016-12-06